机器学习---最小二乘线性回归模型的5个基本假设(Machine Learning Least Squares Linear Regression Assumptions)

在之前的文章《机器学习---线性回归(Machine Learning Linear Regression)》中说到,使用最小二乘回归模型需要满足一些假设条件。但是这些假设条件却往往是人们容易忽略的地方。如果不考虑模型的适用情况,就只会得到错误的模型。下面来看一下,使用最小二乘回归模型需要满足哪些假设,以及如果不满足这些假设条件会产生怎样的后果。

 

最小二乘回归模型的5个基本假设:

  • 自变量(X)和因变量(y)线性相关
  • 自变量(X)之间相互独立
  • 误差项(ε)之间相互独立
  • 误差项(ε)呈正态分布,期望为0,方差为定值
  • 自变量(X)和误差项(ε)之间相互独立

 

第一个假设:自变量(X)和因变量(y)线性相关

线性相关(linearly dependent)是最基本的假设。如果自变量和因变量之间没有关系或者是非线性关系,那么就无法使用线性回归模型进行预测,或者无法预测出准确的结果。

 

第二个假设:自变量(X)之间相互独立

如果我们发现本应相互独立的自变量出现了一定程度(甚至高度)的相关性,那么我们就无法知道自变量和因变量之间的真正关系,这称之为共线性(collinearity)当共线性出现的时候,变量之间的联动关系会导致我们估计的参数的标准差变大,置信区间变宽,由此来看,参数的估计值会变得不稳定,对参数的假设检验也会变得不准确。

(注:两个特征之间相互关联被称之为共线性,但是也有可能三个或更多的特征之间相互关联,即使这些特征两两之间并没有很高的关联,这被称之为多重共线性(multicollinearity)

 

第三个假设:误差项(ε)之间相互独立

随机误差项的各期望值之间存在着相关关系,称随机误差项之间存在自相关性(autocorrelation)。自相关性通常出现在时间序列里,后一项依赖于前一项;也可能出现在有偏差的样本里,比如样本搜集自同一个家庭的成员。当自相关性出现的时候,预测值的标准差往往比真实的小,进而会导致置信区间变窄,同时,较低的标准差会导致p值较小,这会让我们得到错误的假设检验结果。

 

第四个假设:误差项(ε)呈正态分布,期望为0,方差为定值

这里其实分为两个假设。第一个假设:误差项服从均值为0的正态分布。第二个假设:误差项的方差为定值(不变)。这两个假设是为了保证回归模型在小样本下能够顺利进行假设检验。正态分布假设仅在小样本的情况下需要,大样本的情况下则不需要,因为有中心极限定理做正态性的支撑。而方差齐性则保证最小二乘法估计出来的统计量具有最小的方差。如果违反了这个假设,置信区间会变宽,这称之为异方差性(heteroscedasticity)。当异方差性出现的时候,如果仍采用最小二乘法估计参数,会导致参数的t检验值被高估,可能造成本来不显著的某些参数变为显著,使假设检验失去意义。

 

第五个假设:自变量(X)和误差项(ε)之间相互独立

模型中一个或多个自变量与随机误差项存在相关关系,这称之为内生性(endogeneity)。内生性通常由于遗漏变量而导致的,因此是一个普遍存在的问题。内生性会导致模型参数估计不准确。

 

posted @ 2019-02-11 21:40  HuZihu  阅读(16126)  评论(0编辑  收藏  举报